Suno劲敌问世,核心成员来自谷歌,“文生音乐”要变天了?

文/ 腾讯科技 郝博阳

Suno爆火没一个月,文生音乐的头把交椅就迎来了新的挑战者——Udio。

几天前,知情人士透露说看到了一个比Suno强两倍的AI音乐产品演示,给了他自Sora之后的最大震撼。他认为靠着这个模型,AI音乐将席卷全球。

AI音乐已经席卷全球两次了。

2023年初,AI孙燕姿的出现让孙燕姿本人说出“人类无法超越AI”。

上个月,Suno的出现让音乐人们集体表示,低端编曲行业已经没有存在的必要了。

比Suno还要强两倍?那AI音乐的制作水位怕是要淹到知名制作人的脚面上了。

4月10日,这个会“改变音乐行业”的产品终于正式发布。到底能不能比Suno高两倍?

我们先听听他的宣传视频曲:

题材上有点中规中矩?那再来个百老汇版《沙丘2》配乐

有没有超越Suno两倍我不确定,但这一波Udio确实秀出挑战Suno的肌肉。

在用AI写歌这件事上,Suno凭什么赢了OpenAI和谷歌

实测音乐生成软件Suno AI:人人都能当周杰伦?小白用它“搞钱”太难

Udio,把生成式音乐带向录音棚水平

Udio想要称王靠的绝活就是“还原度。”

在进行过一轮深入的比对后,Udio在音质还原方面确实完胜Suno的。不论是器乐还是人声,Udio都几乎达到了乱真的水平。

这就是它敢自称强上Suno两倍的底气。

过去的音乐生成软件也可以生成高达32kHz以上的音乐,但无论如何,它们离真实音乐总隔着一点“合成味”,就算是Suno也逃不掉。但Udio基本上跨过了这道音质还原性的坎儿。

比如说,“合成味”经常表现在声音与声音之间的联系中,过去的音乐生成,音与音之间似乎总有个变化的桥,切割并不干脆。但Udio生成的音乐声音非常清晰。音与音之间的联系不像之前的音乐生成软件那么粘,切分清晰。

另一个“合成味”的重灾区在器乐音色上。过去的合成音乐中器乐带有一种合成未果的擦音,以及有点乌突秃的质感。但在Udio这里器乐上几乎完全没有了合成的音色,还原拟真达到了全新的高度。而且和弦更丰富,混响更饱满。

人声方面Udio的提升就更加明晰哪了。Suno的“合成味”是相当明显的,在一句的结尾或开头都可能会留下失真的残影。但Udio的人声几乎达到了和11 Lab之类合成音一样的真实度。

除去音质还原这个最容易识别的差一点外,Udio在编曲的丰富度上也完全不输Suno,完全可以生成出多变的音乐发展部。

但Udio为什么能有这么好的效果,它在模型方面做了什么,我们基本上一无所知。和Suno一样,没开源,没论文,甚至连个技术博客都没有。

作为挑战者的致命短板

Udio在声音特质上确实“遥遥领先”的。

但它也存在的“致命弱点”。这些弱点很可能会让Udio与C端流行无缘。

最要命的就是生成时间问题。

在腾讯科技之前分析Suno成功的原因,将其定位在它能够理解乐曲的长结构上。它过往的产品默认生成片段和理解能力都限制在30s左右,因此根本没法理解到乐曲的结构,也形成不了完整的乐曲。

但Udio的默认生成长度也仅有33秒。这与Suno默认的生成长度就在1分半以上差了三倍。在它自己的产品介绍里,这大概是6句歌词的长度。这能够用?

所以Udio是不是和它的前辈一样,理解不了乐曲的结构?

并不是。Udio提供了延展生成的选项。过去的AI音乐生成的延展可能只是接着生成,而非按照结构去生成,因为它们理解不了结构。与它们不同,在Udio的延展中,你可以选择延展段落是在结构中的什么部分,可以延展出引子、结尾,从而生成成具有完整结构的乐曲。

这说明Udio其实是可以理解整个乐曲的结构的。

我用《谢天谢帝》做了个尝试,它的延展做的非常完美,保持了曲风的一致性,且理解了乐曲的结构,正确的做出了引子。

然而这个步骤其实相当复杂。想要形成一首完整乐曲,你至少得对同一首乐曲延展2次,加个开头和结尾,每次都需要再单独生成。

更要命的是,它生成的时间相当死板,33秒的默认生成长度,你想延长也是又一个33秒。每次延长都是固定的时长。这对于自定义歌词的模式来讲非常的不友好。歌词长了,放不下,歌词短了,就像上面的例子一样,Udio可能会自动给你用生成的歌词把空填上。而且更糟糕的是,如果你写的歌词是中文的话,因为Udio的中文生成支持有限,它只能生成一些莫名其妙的呢喃。

我其实并不理解Udio如此设置的逻辑,哪怕是按歌词长度适应性生成也远好过目前这种方式。

这个短板会让创作被限制到完全不自由的程度。你得按音乐速度自己算出需要多少句歌词,然后再去填词。

好好的一键生成的快乐游戏变成写律诗了。

其次是产品。

Udio的产品界面和Suno高度相似。边栏都分为探索广场/ 我的创作 / 喜欢的音乐库三个部分,在上部直接输入Prompt就可以生成音乐。

但问题出在创作栏上。

在你生成音乐的过程中,会出现下拉菜单,有三个比较重点的功能。

最上面有个开关,是“手动模式”,根据其介绍,手动模式下Udio会严格按照你的Prompt去产出乐曲。如果不打开这个选项,模型会自动把你的指使翻译润色一遍后再生成。

中间,你可以选择音乐的类型,不让它因为对你Prompt的错误理解而跑的太偏。

下面是三种歌词方面的选项,包括“自定义歌词”,“纯器乐”和“自动生成”三种选择,选择自定义歌词的话会有下拉框可以填入歌词。

横置的Prompt窗口,过分压缩的功能界面。这一切都会让用户产生一种堆积感,让你觉得填不了什么东西进去。

而在Suno中,只要你进入了创作界面里,创作信息在左栏,栏目本身也提供了足够上下两行的文字框,压缩感一下就降低了。但在Udio这里,就算进入了创作页面,其创作栏永远在上面,还是一样的缺乏延伸的体验。这会大大打压创作者的输入积极性。

而一个明显定位toC的创意性产品,能不能让用户有创作欲望才是核心的胜负手。

核心团队全部来自谷歌的期货项目

Udio背后的公司是去年十二月才成立的。它的核心成员有David Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez,全部都是从谷歌Deepmind出来创业的。

这四名研究员并非业界赫赫有名的大腕,但这家公司一经初创就拿到了包括a16z和Instagram CTO Mike Krieger等硅谷大佬的投资。Krieger还说了一段褒扬团队的话:“这些技术型的合伙人是那种可以很务实的人,因为我们的进展一直非常快。”

这是肯定的。因为这个公司创始的三名核心技术人员,包括CEO David Ding在内,在出走谷歌之前,都曾经为谷歌最新的AI音乐生成软件Lyria做出了重要的研究贡献。

(Lyria项目的声明和致谢部分)

(谷歌lyria项目博客页)

Lyria这个产品在去年11月份谷歌初次发布的时候就引发了相当的轰动。它对音色的还原水平是当时所有其他音乐生成AI望尘莫及的。尤其是人声还原,水平相当惊艳。就算是与Udio相比,差异也并不太明显。

这时候距离Suno出世还有4个月的时候。大家都觉得这个生成应用的完成度确实足以“改变音乐的未来”。

谷歌制定了雄心勃勃的计划,打算把它整合进Youtube里,作为短视频免版权配乐生产工具,并给它起名叫Dream Track。

但实际上,到今天为止,你在Youtube上都用不到它。这款工具只在1-2月份非常少量的开放给了一小群Youtube上的创作者,从来没有批量放开过。

谷歌小心翼翼的试用,不敢放开迎来的后果就是Suno从天而降。自己手上这张本可能被视为音乐领域的Sora的牌,响不了了。

而且从Udio的表现来看,我们也知道,它本是可以响的。

这不禁让我们想起当年谷歌本来作为行业领先者,Transformer模型的提出者。明明手头都有功能类似ChatGPT 的AI CahtBot,就是担心舆论不敢发布。最终被OpenAI划了时代,自己成了紧追的后来者。

而这个习惯,到了2023年也没怎么改。谷歌的AI部门还是一直发论文,但三四个月后才给产品、放模型。那些让人眼馋的新功能、尖模型最后都是期货。

Udio今天的发布,又让我们再次确认:谷歌如果会在AI时代被埋葬,那就是因为他天天只发期货。

强的理由,也是Udio的阿喀琉斯之踵

不过,谷歌一直按而不发Lyria,也许也是迫不得已。因为它可能解决不了训练模型的版权问题。

过往OpenAI的成功,就是一直在证明着Scaling Law的有效性。更多的数据,更大参数的模型=更好的效果。

Suno和Udio突然突破过往AI文生音乐的各种瓶颈,一方面是依靠着模型上的进步。但能够实现跨越性的突破,海量的数据是跨不过的坎。

在之前文章中分析Suno的技术突破时,我就提到更多的训练素材也许就是这一突破的关键。过往的文生音乐模型中,谷歌,OpenAI和Meta给出的有版权的训练库集中都只有大概30万小时以内的音乐,也就是150万首歌左右。

然而可用的音乐有多少?根据Music Business Worldwide的统计,在2022年年底,Apple Music确认曲库就拥有超过1亿首歌曲。当年,环球音乐集团首席执行官兼董事长卢西恩·格兰奇(Grainge)在新加坡举行的“Music Matters”论坛上透露,每天大约有10万首新歌曲被上传到音乐流媒体平台上。150万首,不过是可用音乐的沧海一粟而已。

Suno虽然现在还没有被抓包,有明确的利用音乐家声音的情况。但才发出两天,Udio就已经被发现有相当多的可疑歌声了。

在滚石杂志的相关文章中,他们确认Udio生成的音乐中有用Tom Petty声音合成的演唱。Twitter上也有网有发现类似约翰·列侬嗓音的生成歌曲。

一位专注AI音乐的开发者就质疑其中一首生成歌曲和知名Rapper Common的声线重合度99%

在这一点上,Udio的CEO也心知肚明。

在接受MusicAlly的采访时,David Ding在回答其数据来源问题时表示“对于语言模型和图像模型,事实已经证明,要获得高质量的输出,您必须对大量高质量的输入进行训练。“但显然,这里的目标不是复制披头士乐队或类似的东西。如果我想重现披头士乐队,我可以直接听披头士乐队的歌”。

不是复制但用了是吧?

OpenAI CTO米拉·穆拉蒂在接受WSJ访谈时,被问及Sora训练内容源时的经典尴尬表情

看到有点走偏,另一个联创Sanchez赶紧补充说到“这就是为什么我们有非常强大的艺术家过滤器和版权重点,以确保我们不会反刍出任何版权音乐。”

但是你训练用了也不行啊。最近环球音乐还有Concord都加入了一项名为”公平训练“的音乐家项目,就是呼吁在未经允许的情况下,禁止利用音乐家的版权内容进行训练。这在音乐家群体内部基本上也是共识。

不同于文字或者视频领域存在着诸多模糊的版权界限。音乐领域的版权墙一直都是最高的,基本上所有音乐都有着相应的版权,从编曲到歌手的声音无所不包,而且这些版权都有具体的唱片公司维护。作为以内容为核心资产的公司,他们都有着极强的诉讼能力。

这也是谷歌就算手握Youtube Music的版权库,也不敢用它去训练AI。就算Lyria真的用了,它也不敢放出来的核心原因。

所以也许Udio在登顶文生音乐之前,就得绊倒在版权上。